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Bibliographische Daten 


The method involves a neural network with an output magnitude characteristic which is time dependent. The characteristics are 
extracted from a predefined relation, and the time signal is obtained directly, without expensive frequency transformations, being a 
result of a learning process in the neural network (1). For each word to be learnt, a perception (2) is used, adapted to this word. 
Each perception is a single-layer neural network, and about 50 characteristics are extracted from the speech signal, and adapted 
to the neural network. The calculation depends on certain functions by the central microprocessor, which are functions from 
various probability studies. 
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Prufungsantrag gem. § 44 PatG ist gestellt 

@ Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen 

(57) Verfahren und Schaltungsanordnung zur Spracherken- 
nung und zur Sprachsteuerung von Vorrichtungen. 
Zur Spracherkennung warden neuronale Netze verwendet, 
die sehr rechenaufwendig sind. Die Klassifizierungs-Merk- 
male mussen relativ aufwendig ermittelt warden, um eine 
zuverfassige Funktion des Verfahrens zu gewahrfeistert. 
Es hat sich gezeigt, daS die Verwendung eines Transversal- 
filters in Verbindung mit einem Perzeptron-Netz sehr gut zur 
wenig rechenintensiven Spracherkennung geeignet ist. 
Durch die Ermittlung einer Einhullenden und die Aufteiiung 
des Signals in vier Teilbereiche wird der Rechenbedarf noch 
wetter verringert und die Zuveriassigkeit des Systems ge- 
steigert 

Die Erfindung kann insbesondere zur preiswerten Sprach- 
steuerung von Haushaltsgeraten verwendet werden. 
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Bescbreibung 

Die Erfindung betrifft ein V rfahren und eine Schal- 
tungsanordnung zur Spracherkenming and zur Sprach- 
steuerung von Vorrichtungea Die Erkennung der fCom- 
mandoworte erfolgt prinzipieli dadurch, dafi Komman- 
dowort-Signale digital auf gezeichnet und Merkmale der 
digital aufgezeichneten Signale berechnet werden, die in 
ein neuronales Netzwerk zur Ermittlung des zugehori- 
gen Kbmmandowortes gespeist werden. 

Spracherkennungsverfahren, die auf neuronalen 
Netzwerken basieren, sind vor allem auf der Basis von 
verborgenen Markov-Modellen (Hidden Markov-Mo- 
del) oder dem Dynamic Time Waiping-Verfahren 
(DTW) bekannt Diesbezugiich sei auf die DE- 
PS 33 37 353 C2, DE-OS 42 41 688 Al, DE-OS 195 08 
71 1 Al und DE 44 17 557 Al verwiesen. AUe diese Ver- 
f ahren sind sehr aufwendig und erfordern leisiungsf ahi- 
ge digitale Signalprozessoren zur Durchfuhrung einer 
Frequenz analyse, AuBerdem mussen die Daten fur alle 
Sprachproben auf gezeichnet und permanent verfugbar 
gehalten werden, damit bei dem spateren Erkennungs- 
vorgang das ahnlichste Wort im Vergleich zu den 
Sprachproben herausgesucht werden kann. Dement- 
sprechend sind die Anforderungen an die Prozessorlei- 
stung und den Speicherbedarf relativ hoch und der Her- 
stellungspreis vor allem zur Anwendung bei Sprach- 
steuerungen zu hoch. 

Der Rechenaufwand ist auch bei der in der DE- 
OS 41 11 995 Al beschriebenen Schaltungsanordnung 
zur Spracherkennung relativ groB, da dort eine Spek- 
tralanalyse durchgefuhrt werden muB. 

In der DE-OS 39 31 638 Al wird ein Verfahren zur 
sprecheradaptiven Spracherkennung beschrieben, das 
keine Frequenztr ansformation mehr erf ordert Aus dem 
Sprachsignal werden Merkmalsvektoren extrahiert, die 
in silbenorientierte Wortuntereinheiten segmentiort 
und klassifiziert werden. Pro Wortuntereinheit wird ein 
Vergleich mit Referenzmustem durchgefuhrt Hierzu 
mussen die Referenzmuster fur einen gesamten Wort- 
schatz abgespeichert und fur den Vergleich verfugbar 
gehalten werden. 

In der DE-PS 39 35 308 CI wird zur Spracherken- 
nung die Durchfuhrung einer Differenzierung und einer 
Deltamodulatxon des abgetasteten Sprach-Zeitsignals 
vorgescblagen, AnschlieBend wird die Anzahl der "Ein- 
sen" festgestellt, die in Bytes vorhanden sind, die aus 
einer Anzahl aufeinanderfolgender Abtastwerte gebil- 
det werden. Die Anzahl von "Einsen" pro Byte reprasen- 
tiert eine Hauptcodezahi, die uberdie Zeit aufgetragen 
ein Balkenmuster bildet, das mit Referenzmustern ver- 
glichen wird Auch hier ist eine Abspeicherung einer 
Vielzahl von Referenzmustern erforderlich. 

In der DE-OS 41 03 913 Al ist eine Einrichtung zur 
Geratesteuerung beschrieben, bei dem ein Zeitmuster 
in bezug auf die Ton- und Pausendauer ermittelt wird, 
das mit Referenzmustern vergiichen wird. Die Unter- 
scheidungsfahigkeit von Worten allem durch das Merk- 
mal der Ton- und Pausendauer ist in der praktischen 
Anwendung nicht ausreich nd. AuBerdem mussen pro 
Kommandowort Referenzmuster abgespeichert und 
verfugbar gehalten werden. 

In der DE-OS 195 08 137 Al w rden Worte schritt- 
weise klassiflzi rt, indem eine Teilwortiange, eine An- 
zahl von Segmenten und ine Lauttypfolge ermittelt 
wird. Fur den nachfolgenden Klassifikationsschritt wer- 
den dann nur nocb die Referenzworte betrachtet, bei 
denen die Merkmale innerhalb vorgegebener Toleran- 
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Zur Detektion des Start- und Endpunktes ernes Wor- 
tes wird in der DE-OS 44 22 545 Al vorgeschlagen das 
Sprechsignal blockweise zu untert ilen und Merkmals- 
5 vektoren zu bilden, indem pro Block die Signal nergie 
sowie die quadra tische Differenz eines LPC (Linear- 
Predicuve-O>dmg)-Cepstnim-Ko^n^enten in bezug 
auf einen mitderen LPC-Cepstrum-Koeffizienten be- 
stimmt wird. Der Merkmalsvektor sowie ein mittlerer 

io Merkmalsvektor werden mit einem Schwellwert zur 
Detektion des Start-/Endpunktes vergiichen. 

In der DE-OS 43 28 752 Al wird ein Spracherken- 
nungssystem vorgesteflt, das ein mehrschichtiges neuro- 
nales Netzwerk erfordert Dadurch ist der Rechenauf- 

15 wand und die Anzahl von Netzwerkknoten uner- 
wunscht hoch. 

Aufgabe 

2° Ausgehend von diesem Stand der Technik war es 
Aufgabe der Erfindung, ein Verfahren und eine Schal- 
tungsanordnung zur Spracherkennung und zur Sprach- 
steuerung von Vorrichtungen mit vermindertem Re- 
chenaufwand zu schaff en, wobei nur eine geringe Lei- 

25 stung eines zentralen Mikroprozessors (CPU) und eine 
geringe Speicherkapazitat erforderlich ist Das Verfah- 
ren und die Vorrichtung sollte dennoch sehr zuvertassig 
und leistungsfahig sein. 

30 Erfindung 

Die Aufgabe wird durch das Verfahren nach An- 
spruch 1 und die Schaltungsanordnung nach Anspruch 
15geldst 

35 Vorteilhafte Ausgestaltungen sind in den Unteran- 

spruchen beschrieben. 
Es hat sich gezeigt, daB die Verwendung eines Trans- 

versalfilters in Verbindung mit einem Perzeptron-Netz 

sehr gut zur wenig rechenintensiven Spracherkennung 
40 geeignet ist Durch die Ermittlung einer Emhullenden 

und die Aufteilung des Signals in vier Teilbereiche wird 

der Rechenbedarf noch weiter verrmgert und die Zu- 

veriassigkeit des Systems gesteigert 
Werden bei dem Anlernvorgang Sprechproben von 
45 mehreren Personen aufgenommen, ist das Verfahren in 

der Lage, eine gewisse Sprecherunabhangigkeit bei der 

Spracherkennung zu erreichen. 

Zeichnungen 

50 

Die Erfindung wird nachfolgend anhand der Zeich- 
nungen naher erlautert Es zeigen: 

Fig. 1 Verf ahrensprinzip zur Spracherkennung unter 
Verwendung eines kOnstlichen neuronalen Netzes; 
55 Fig. 2 Prinzip der Ermittlung der Einhullenden aus 
dem Zeitsignal; 

Fig. 3 Berechnung der Merkmale jeweils fur die vier 
Wortbereiche; 
Fig. 4 Stark vereinf achtes digitales Transversalfilter; 
60 Fig. 5 Schaltungsanordnung zur Spracherkennung. 

Ausfuhrungsbeispiele 

Das Verfahr nsprinzip zur Spracherkennung unt r 
65 Verwendung eines neuronalen Netzes ist in der Fig. 1 
dargestellt Das Sprachsignal ist fiber die Zeitachse auf- 
getragen. 

Das Prinzip des Verfahren besteht darin, daB Merk- 
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male zur Erkennung des Wortes ohne aufwendige Fre- 
qu nztransforroation direkt aus dem Zeitsignal xtra- 
hiert werden. Die extrahierten Merkmale werden an ein 
kunstliches neuronales Netz (1) angelemt Fur jedes an- 
zulernende Wort wird ein Perzeptron (2) verwendet, das 
auf dieses Wort angelemt wird. Ein Perzeptron ist ein 
einschichtiges neuronales Netz, daB z. B. in The percep- 
tion: a probabilistic model for information storage and 
organization in the brain* von F. Rosenblatt in *Neuro- 
computing: foundations of research" Massachusetts In- 
stitute of Technology, 1988, S. 92 ff, ausfuhrlich darge- 
stellt ist Insgesamt werden ca. 50 Merkmale aus dem 
Sprachsignal extrahiert und dem neuronalen Netz (t) 
angelernt 

Die Berechnung der Merkmale erfolgt durch Funk- 
tionen, die auf dem zentralen Mikroprozessor ablauf en. 
Dieser ist vorteilhafterweise ein Mikrocontroller, der 
Schaltungen zur Ansteuerung von Steuerelementen und 
zur Analog-Digital- Wandlung auf dem Chip aufweist 

Die ermittelten Merkmalsvektoren werden vor dem 
Anlernen an das neuronale Netz (i) normiert, und zwar 
in der Weise, daB fur jedes Merkmal getrennt das Maxi- 
mum des Betrages ermittelt wird. Danach wird die be- 
treffende Komponente durch diesen Wert dividiert, wo- 
mit erreicht wird, daB alle Merkmale in den Zahlenbe- 
reich —I ... +1 abgebildet werden. Dies fuhrt zu einer 
Erhohung der Erkennungsrate, da aHe Merkmale gleich 
stark gewichtet sind und nicht einzelne Merkmale mit 
einem kleinen Absolutwert gegenuber Merkmalen mit 
groBen Absolutwerten vernachiassigt werdea 

Fur die neu zu klassifizierenden Merkmale muB ent- 
sprechend die Multiplikation jeder Komponente erfol- 
gen. 



hullende des Zeitsignals berechnet Zu diesem Zweck 
wird, wie in der Fig. 2 skizziert ist, jewefls in einem 
Teilintervall das jeweilige Maximum ermitt It und ge- 
speichert Die Gesamtmenge der auszuwertenden Pa- 
5 tenreduziertsichdabei von20000Abtastwertenauf ca. 
150 Abtastwerte. Diese sind ausreichend, urn die Einhul- 
lende hinreichend genau zu beschreiben. Aus der Ein- 
hullenden wird ein Teil der Klassifikations-Merkmale 
gewonnen. 

0 Aus der Form der Einhullenden Iassen sich dann wei- 
tere Merkmale mit vergleichsweise geringem CPU-Auf- 
wand berechnen. Die Verwendung der Einhullenden fur 
diese Merkmalsbestimmungen macht das Ergebnis zu- 
dem robuster gegen einzelne Stdrsignale und Variatio- 

5 nenderAussprache. 

3. Bestimmung des Durchschnittswerts der 
Einhullenden 

0 Es wird der Durchschnittswert der Einhullenden be- 
stimmt Dieser unterscheidet sich vbm Durchschnitts- 
wert des Zeitsignales, da entsprechend der Fig. 2 eine 
Art Gleicbrichtung und Glattung stattgefunden hat 

5 4. Detektion der Wortanwesenheit 

Zunachst wird mit der Einhullenden in robuster Wei- 
se detektiert, ob uberhaupt ein Wort gesprochen wurde. 
Zu diesem Zweck wird geprQft, ob der Durchschnitts- 
wert der Einhullenden deutlich und fur eine langere Zeit 
(mind 0,2 Sekunden) uberschritten wurde. Daraus wird 
zunachst ein Zeitpunkt bestimmt, der als Wortmitte be- 
zeichnetwird. 



Beschreibung der Merkmale ' 5. Detektion von Wortanfang und Wortende 



Im folgenden werden die Verfahrensschritte zur 
Spracherkennung und zur Ermitdung der Klasshika- 
tions-Merkmale fur das Sprachsignal beschrieben. Es 
sindvorgesehen: 

1. Ermitdung statistischer GroBen; 

2. Ermitdung der Einhullenden zur Extrahierung 
von Merkmalen; 

3. Bestimmung des Durchschnittswerts der Einhul- 
lenden; 

4. Detektion der Wortanwesenheit {kein Merkmal); 

5. Detektion von Wortanfang und Wortende (kein 
Merkmal); 

6. Bestimmung von Voriauf era und Nachlaufern; 

7. Bestimmung der Anzahi der Siiben; 

8. Unterteilung des Wortes in vier Teilbereiche; 

9. Anwendung stark vereinfachter digitaler Filter; 

10. Bestimmung der Signalenergie nach einer Tief- 
paB und HochpaB-Filterung; 

1 L Bestimmung der Anzahi der Nulldurchgange. 

L Ermitdung statistischer GroBen 

Zunachst werden einige einfache statistische GroBen 
aus dem Zeitsignal berechnet, wie der Mittelwert des 
Signales, die Varianz, die Gesamtsumme des Signales 
und die Wortdauer. 

2. Ermittlung der Einhullenden zur Extrahierung von 
Merkmalen 



Ausgehend von dieser Wortmitte wird sodann der 
Wortanfang und das Wortende gesucht Dazu muB ein 
Schwellwert der Einhfillenden unterschritten werden, 
und danach fur langere Zeit unterschritten bleiben (Stil- 
le vor und nach dem Wort). 

6. Bestimmung von Voriauf em und Nachlaufern 

Manche Worte zeichnen sich dadurch aus, daB es 
Vor- oder Nachlaufer gibt Um dies festzustellen, wird 
aus der Einhullenden eine Ablehung bestimmt Die Be- 
trage der Ableitungen werden im Anfangsbereich und 
Endbereich des Wortes aufsumraiert Je grdBer die er* 
haltenen Werte sind, desto eher kann angenommen 
werden, daB Vor- bzw. Nachlaufer vorhanden sind. Mit 
diesem Merkmal wird zugleich auch ein MaB fur ihre 
Intensitat ermittelt 

7. Bestimmung der Anzahi der Silben 

Die Anzahi der Silben eines Wortes kann nicht mit 
einfachen Algorithmen ermittelt werden, da beispiels- 
weise das Wort "zuruck" von manchen Sprechern mit, 
von anderen ohne Pause gesprochen wird bzw. es auch 
Obergange gibt Um ein MaB dafur zu erhalten, ob es 
eine Pause in der Wortmitt gibt, werden aus der Ein- 
hullenden Ableitungen bestimmt und die Betrage der 
Ableitung n im Bereich der Wortmitte auf summiert 

8. Unterteilung des Wortes in vier Teilbereiche 



55 



Zur Einsparung von Rechenzeit wird danach die Ein- Mit Hilfe der Einhullenden kann das Wort in die vier 
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gleichgroBen T Obereich 1. Vierte^ Z Viertel 3. Viertel, 
4. Viertel unterteilt werden. Die Einteilung 1st aus der 
Fig. 3 ersichtlich. Die im f Igend n beschriebenen ex- 
trahierten Merkmale werden daon jeweils fur diese 
Teilbereiche, auch Abschnitte genannt, berechnet 

Dieses Vorgehen ist sinnvoll, da sich die Eigenschaf - 
ten des Zeitsignales im Verlaufe der Aussprache eines 
Wortes indent Es hat sich gezeigt, daB eine feinere 
Unterteilung des Wortes in wesentlich mehr Abschnitte 
nicht sinnvoll ist, da sich damit die pro Zeiteinheit zu 
verarbeitende Datenmenge erhdht, sich aber die Ro- 
bustheit des Erkennungsalgorithmus hingegen verrin- 
gert, da Einzeiheiten des Zeitsignales und zufallige 
Schwankungen ein zu groBes Gewicht erhalten, 

9. Verwendung von stark vereinf achten digitalen Filtera 

In Lehrbuchern, z. B. in Tinf uhrung in die digitale 
SignaJverarbeitung*, R Gotz, Teubner Studienskipten, 
Stuttgart, 1990, a 1 10, wurde gezeigt, daB die FFT (Fast 
Fourier Transform) im Prinzip als eine Filter bank aus 
vielen einzelnen Bandpassen verstanden werden kann. 
Dabei ist der Aufwand fur die Reaiisierung dieser Band- 
passe relativ groB. 

Der Aufwand kann jedoch deutlich reduziert werden. 
Im Verlaufe der Entwicklung des Gegenstandes der Er- 
findung hat sich gezeigt, daB extrem vereinf achte digita- 
le Filter in Kombination mit einera Perzeptron-Netz- 
werk zu guten Ergebnissen bei der Spracherkennung 
fuhrea Zu diesem Zweck wird das folgende, stark ver- 
einf achte digitale Transversalfilter verwendet, das in der 
Fig. 4 darges tellt ist 

Es wird jeweils die Differenz aus dem aktueUen Ab- 
tastwert z t des Sprachsignales mit einem urn die Zeit T 
alteren Wert zt- T gebildet: dt » zt— z t - T . Die Absolut- 
werte der Differenz eines Teilbereichs (Wortviertels) 
werden jeweils fur das I, 2, 3. und 4. Wortviertel auf- 
summiert und als Merkmal dem Perzeptron zugefuhrt 
Es werden die Merkmale Si, S3, S 4 ermittelt: 

t a 

si=Xl z t- 2 t-x|; 
t 3 

S 2=X l z t-zt-x|; 
fc « 

s 3=Xl z t-2t-t|; 

t« 

Durch die Zeitverzogerung und die Differenzbildung 
ergibt sich ein frequenzseiektives Verhalten des Merk- 
mals, das von x abhangt 

Werden unterschiedliche Verzogerungsz iten x ge- 
wahlt, so ist das Merkmal jeweils fur verschieden Fre- 
quenzbereiche sensitiv, so daB ein Frequenzanalyse 
des Wortes erfolgt, die mit vergleichsweise schlechten 
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digitalen Ffltem auskommt, die aber in Verbindung mit 
dem Anlernvorgang des neuronalen Netzes dennoch zu 
guten Erk nnungsergebnissen fuhrt 
Insgesamt werden ca> 20 derartigeM rkmale aus dem 
5 Zeitsignal bestimmt und als Merkmal in das neuronale 
Netz eingespeist Die guten Erkennungsraten basieren 
wesentlich auf diesem Verf ahren. 

10. Bestimmung der Signalenergie nach einer TiefpaB-, 
10 HochpaB-Fdterung 

Ferner wird ein einfacher digitaler HochpaB und ein 
TiefpaB verwendet, der aus der Li teratur, z. B. aus *Ein- 
fuhrung in die digitale Signalverarbeitung", H. Gotz, 
is Teubner Studienskipten, Stuttgart, 1990, hinreichend 
bekannt ist Der Ausgangswert des Filters wird nach 
Betragsbildung zur Ermitdung einer "Signalenergie 1 ' fur 
jedes Wortviertel auf summiert. 

20 11. Anzahl der NuUdurchgange 

Die Anzahl der NuUdurchgange wird fur jedes Wort- 
viertel bestimmt und als Merkmal verwendet Dieses 
Merkmal gib t Hin weise auf die Tonhdhe. 

25 Die Schaltungsanordnung zur Spracherkennung und 
Sprachsteuerung ist in der Fig. 5 dargestellt In einer 
Wandlerschaltung werden Sprachsignale in analoge 
elektrische Signale mit Hflfe eines Mikrofons und eihes 
Verstarkers umge wandeit Mit der Wandlerschaltung ist 

30 eine Abtastschaltung zur Erzeugung einer Anzahl digi- 
taler Abtastwerte aus dem analogen elektrischen Signal 
verbundeiL Die die digitalen Abtastwerte werden in ei- 
nem Speicher abgelegt Ein zentraler Mikroprozessor 
(CPU) ist zur Ausfuhrung von Bef ehlsfolgen zur Spracfa- 

35 erkennung und zur Steuerung der Schaltungsanordnung 
vorgesehen. Die Schaltung wird mit einer Taktgenera- 
torschaltung getaktet Die Befehlsfolgen zur Spracher- 
kennung werden in einem Speicher, Z.B. in einem 
PROM, fest abgelegt Eine Schalterkombination ist zur 

40 Einstellung binarer Zahlen vorgesehen, wobei die Stel- 
lung der Schalterkombination dem Mikroprozessor die 
Anzahl voneinander unterschiedlicher Kommandowor- 
te anzeigt Ein Anlernzyklus fur die Anzahl Kommando- 
worte kann mit einem Taster gestartet und gestoppt 

45 werden. Wahrend des Anlernzyklus werden Komman- 
doworte aufgezeichnet und jeweils pro Kommando- 
wort mit Hflfe des Mikroprozessors Referenzmerkmale 
der digitalen Abtastwerte bestimmt Die Referenzmerk- 
male werden in einem SRAM-Speicher abgelegt Eine 

50 Segmentanzeige ist zur Anzeige von Zahlen vorgese- 
hen, die jeweils einem Kommandowort oder dem Be- 
triebsmodus der Schaltungsanordnung, inbesondere des 
Anlernzyklus oder eines Erkennungszyidus zur Steue- 
rung, entsprechen. In einer bevorzugten Ausfuhrungs- 

55 form ist die mit der Wandlerschaltung verbundene Ab- 
tastschaltung zur Erzeugung einer Anzahl digitaler Ab- 
tastwerte aus dem analogen elektrischen Signal ein Be- 
standteil des zentralen Mikroprozessors (CPU). 
Das Zeitsignal des gesprochenen Wortes wird mit 

60 einem Mikrophon aufgenommen und mit einer Abta- 
strate von 10 KHz aufgezeichnet Die Aufzeichnung ist 
damit geringfugig besser als Telefonqualitat Die Auf- 
nahmedauer betragt etwa 2 Sekunden. Der Mikrocont- 
roller beginnt mit der Aufzeichnung erst, nachdem in 

65 Signal, das einen Schwellwert uberschreit t, registriert 
wurde. Durch diese MaBnahme wird etwas Speicher- 
piatz beim Aufzeichnen des Signales eingespart, zudem 
wartet das System auf die SprachauBerung. Die Aus- 
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wertung beginnt erst, nachdem das Signal aufgezeichnet 
wurde, 

Patentanspruche ^ 

1. Verfahren zur Spracherkennung und zur Sprach- 
steuerung von Vorrichtungen, wobei ein Sprachsi- 
gnal aufgezeichnet, digitalisiert und Merkmaie des 
Sprachsignals eranttek werden und jeweils mit Hil- 

fe eines neuronalen Netzwerkes anhand der ennit- 10 
telten Merkmaie des Sprachsignals das zum 
Sprachsignal zugehdrige Wort bestimmt wird, ge- 
kennzeichnet durch 

a) Transversalfaterung des digitalen Sprachsi- 
gnals fur eineAnzahl von Frequenzbereichen; 15 

b) Errnittlung von Merkmalen M x pro Fre- 
quenzbereich in Abhangigkeit von den Ergeb- 
nissen der Transversalf5Jterung des jeweiligen 
Frequenzbereichs; 

c) Bestimmung eines Wortes anhand der 20 
Merkmaie M T mit Hilfe eines Perzeptron-Net- 
zes. 

2. Verfahren nach Anspruch f, gekennzeichnet 
durch Transversalfllterung des digitalen Sprachsi- 
gnals mit den Schritten von: 25 

a) Berechnung einer Anzahl von Differenzen 
dt von jeweils einem aktuellen Abtastwert z t 
mit einem um die Verz5gerungszeit x zuruck- 
liegenden Abtastwert z*-* fur eine Reihe von 
Zeitpunktent des digitahsierten Sprachsignals; 30 

b) Berechnung jeweils der Absolutwerte der 
Anzahl von Differenzen; 

c) Bildung der Summe St der Absolutwerte der 
Anzahl von Differenzen d;; 

wobei jede Summe St ein Merkmal M T fur das Per- 35 
zeptron-Netz ist 

3. Verfahren nach Anspruch 2, gekennzeichnet 
durch Ausf uhrung der Transversalfllterung fur eine 
Reihe von Verzogerungszehen x. 

4. Verfahren nach einem der vorhergehenden An- 40 
spruche, gekennzeichnet durch Bestimmung der 
Einhullenden des Sprachsignals, wobei jeweils in 
einem Teilintervall das jeweilige Maximum ermit- 
telt und gespeichert wird. 

5. Verfahren nach Anspruch 4, gekennzeichnet 45 
durch Bestimmung des Durch schnittswertes der 
Einhuilenden. 

6. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Ermittlung des Mit- 
telwertes des Signals, der Varianz, der Gesamtsum- 50 
me des Signal es und der Wortdauer. 

7. Verfahren nach einem der vorhergehenden An- 
sprucke, gekennzeichnet durch Einteilung des 
Sprachsignals in vier Teiibereiche. 

8. Verfahren nach Anspruch 7, gekennzeichnet 55 
durch digitate HochpaB- und TiefpaBfilterung je- 
weils der Teiibereiche des Sprachsignals, wobei der 
Ausgangswert des Filters fur jeden Teiibereich auf- 
suromiertwird 

ft Verfahren nach einem der vorhergehenden An- 60 
spruche, wobei eine Prufung erfolg^ ob der Durch- 
schnittswert der Einhullenden deutlich und fur eine 
festgelegte Mindestzeit uberschritten wurde, um zu 
erkennen, ob ein Wort gesprochen wurde. 
10. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Bestimmen der 
Wortmitte durch Halbierung der Zeit bestimmt in 
der der Durchschnittswert der Einhullenden deut- 
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lich und fur eine festgelegte Mindestzeit uberschrit- 
ten ist und Verwenden der Wortmitt als Merkmal 
fur das Perzeptron-Netz. 

1 L Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Bestimmen des 
Wortanfangs und des Wortendes durch Vergleich 
der Einhullenden mit einem Sch well wert, wobei hex 
einem Wortende der Schwellwert eine festgelegte 
Zeit unterschrirten sein muB, 

12. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Erkennen von Vor- 
oder Nachlauf ern durch Bestimmung von Ableitun- 
gen aus der Einhullenden und Aufsummierung der 
Betrage der Abieitungen im Anfangsbereich und 
Endbereich des Wortes, wobei ein Vor- bzw. Nach- 
laufer vorhanden ist, wenn em festgelegter Wert 
uberschritten ist, und Verwenden der Existenz und 
der Intensitat der Vor- und NacWaufer als Merk- 
mal fur das Perzeptron-Netz. 

13. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Bestimmen der An- 
zahl von SUben eines Wortes durch Berechnung 
von Abieitungen der Einhullenden und Aufsummie- 
rung der Betrage der Abieitungen im Bereich der 
Wortmitte und Verwenden der Anzahl von Silben 
als Merkmal fur das Perzeptron-Netz. 

14. Verfahren nach einem der vorhergehenden An- 
spruche, gekennzeichnet durch Bestimmen einer 
Anzahl der NuUdurchgange fur jedes Wortviertel 
und Verwenden der Anzahl der NuUdurchgange als 
Merkmal fur das Perzeptron-Netz. 

15. Schaltungsanordnung zur Sprachsteuerung von 
Vorriditungen mit einer Wandlerschaltung zur 
Umwandlung von Sprachsignalen in analoge elek- 
trische Signale, einer mit der Wandlerschaltung 
verbundenen Abtastschaltung zur Erzeugung einer 
Anzahl digitafer Abtostwerte aus dem analogen 
elektrischen Signal, einem Speicher fur die digita- 
len Abtastwert^ einer Taktgeneratorschaltung, ei- 
nem zentralen Mikroprozessor (CPU) zur Ausfuh- 
rung von Befehlsfolgen zur Spracherkennung und 
einem Speicher fur die Befehlsfolgen zur Spracher- 
kennung, wobei der zentraie Mikroprozessor mit 
den Schaltungen und Speichern zur Ansteuerung 
und Datenubertragung verbunden ist, gekenn- 
zeichnet durch 

eine Schalterkombination zur Einstellung binarer 
Zahlen, wobei die SteHung der Schalterkombina- 
tion dem Mikroprozessor die Anzahl voneinander 
unterschiedlicher Kommandoworte anzeigt, 
einem Taster zum Starten und Stoppen eines An- 
lernzyklus, in dem Kommandoworte aufgezeichnet 
und jeweils pro Kommandowort mit Hilfe des Mi- 
kroprozessors Referenzmerkmale der digitalen 
Abtastwerte bestimmt werden, 
einen fest programmierbaren Speicher zur Spei- 
cherung der Referenzmerkmale. 
id Schalrungsanordnung nach Anspruch 15, ge- 
kennzeichnet durch eine Segmentanzeige zur An- 
zeige von Zahlen, die jeweils einem Kommando- 
wort oder dem Betriebsmodus der Schaltungsan- 
ordnung, inbesondere des Anlernzyklus oder eines 
Erkennungszyklus zur Steuerung, entsprechen. 
17. Schaltungsanordnung nach einem der Ansp ru- 
che 15 oder 16, dadurch gekennzeichnet, daB die 
mit der Wandlerschaltung verbundene Abtast- 
schaltung zur Erzeugung einer Anzahl digitaler Ab- 
tastwerte aus dem analogen lektrischen Signal ein 
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